BàO 1 : récupération des données
Parcourir toute l'arborescence et extraire les contenus textuels de tous les fils…
Le format « RSS » (traduisez « Really Simple Syndication ») permet ainsi de décrire de façon synthétique le contenu d'un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier.
Nous allons travailler sur 17 fils RSS archivés une fois par jour (19h00) sur toute l'année 2021.
Un fil RSS est un fichier contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en détail l'information.
L'utilisateur d'un lecteur RSS peut consulter en un seul endroit les dernières actualités de dizaines, et parfois de centaines de sites web, sans avoir à les visiter et sans avoir à communiquer d'informations personnelles.
L'utilisation des fils RSS par un webmaster afin de syndiquer du contenu, c'est-à-dire publier automatique sur son propre site diverses informations émanant d'autres sites.
Afin d'exploiter un fil RSS proposé par un site, il est nécessaire de disposer d'un outil capable d'analyser le XML (un parseur XML) afin de le convertir en XML.